查看原文
其他

如何加速正向探索分子合成世界? | Alpha小电台

Alpha & 刘宇宙 华兴Alpha
2024-09-15




 “ AI+Materials 有望成为 AI+Science 

下一个十年中落地最快的方向




  「Alpha Talk 」系列  


本期我们对话的嘉宾是北京航空航天大学教授兼博导、深云智合创始人刘宇宙。深耕分子合成路径探索20余年,刘宇宙相信:或许AI+Materials暂时还不像AI制药那样备受关注,但从落地进展来看,AI+Materials有望成为AI+Science下一个十年中落地最快的方向。与此同时,AI+Science的价值需要依托管线才能实现最大化,所以深云智合要成为具备AI+底层能力的材料IP工厂,而不仅仅是材料领域的CRO。


1999年,刘宇宙以满分900分(标准分制)成为河南省高考理科第一名考入清华大学化学系。2006年,刘宇宙前往纽约大学读博,期间师从Michael Ward,专注分子设计、主攻多苯环化合物合成组装,后于Milliken&Company美国总部担任研发化学家。2014年,刘宇宙应海外高层次人才计划之邀回国,前往北京航空航天大学化学学院任教。


通过在分子合成路径领域20余年的求索,刘宇宙和团队研发出AI+自动化+高通量的DeepChem平台,并于2021年正式成立深云智合。基于DeepChem平台加速材料分子研发的能力,目前深云智合有新型环状有机硅、氢能催化剂等多条管线商业化推进中。


本篇采访纪实记录了我们与刘宇宙教授的交流,包括回国任教及创业的经历、材料研发行业的机会、前沿技术在材料研发中的创新、以及AI+Science落地商业模式的思考,希望能与大家一起遨游化学合成的“宇宙” 


 本文导览:

1. 初心篇:材料研发行业,“卖水”不如“带水淘金”2. 技术篇:逆合成诞生30+年,如何加速正向探索分子合成世界?3. 落地篇:打造AI+自动化+高通量驱动的新材料IP工厂


编辑 | Joy Lv 



初心篇


材料研发行业,“卖水”不如“带水淘金”

Alpha


Q

我们在网上看到一篇报道您是99年河南省理科第一名的文章,太厉害了,您当时报考清华化学系是因为喜欢化学么?

互联网确实是有记忆啊,这都多少年前了,哈哈。当时报化学系就是觉得化学比较有意思而已,没有考虑太多,后来招生的老师开玩笑地跟我说,一看就是家里不懂才报化学。

Q

在Milliken工作几年之后,您为什么考虑从美国回来,又怎么想到要创业?

多年基础科学研究背景,我一直期待把多年来积累的创新想法和技术落地。Milliken作为百年企业虽然提供了工业标准化的研究、生产经验积累,但国内有更大的吸引力,同时北航也给我提供了非常好的环境与平台,因此就选择回国来到了大学
图:刘宇宙于Milliken担任研发化学家时期

中国的材料行业离技术近、离市场远,而我在Milliken工作的时期间,公司一直希望科学端的需求能和工厂紧密配合,所以科学家除了研发,也要切身投入到生产、商业化、销售等一系列环节,这让我对工业生产的细节以及市场的需求都非常了解,也让我非常有信心在材料研发方面作出突破性的工作

Q

结合这么多年业界和学界的经验,在您看来,材料研发中最重要的是什么?

在材料这个领域,得研发速率者得天下。在研发过程中,相比于单纯设计出一个新的分子结构,如何高效设计反应路径设计,并且应用于真正的工业生产,是一个更为关键的工业化步骤。
通常,采用传统材料研发手段时,各个步骤的探索需要大量的新分子、需要做大量的试错实验,每一次的实验都要买很多种原料,有的原料买不到,就得由实验人员一步步探索怎么在缺胳膊少腿的情况下完成合成
虽然现在阿克苏诺贝尔、微软、IBM、FB都在做智能合成的事情,巴斯夫也建了超算中心服务自己的产线,但是目前对反应过程进行多层次筛选并应用于实际管线效率的提升还是比较困难的,这个需要对反应的深入理解和计算方法的深入结合,而深云智合做的就是这件事情。别人一天只能做两三个实验我们一天能做几百、上千个实验,整个研发的进度就大大加快了

Q

DeepChem不仅可以帮助发现新材料需要的新分子结构,还可以实现合成路径的规划?

是的,我们能够找到目标结构,并且规划实现路径。多年的行业know-how让我们了解什么样的分子可能有用,然后我们会把这样的新分子设计出来,但根据现有合成技术,这些分子很难被快速地合成出来,而Deepchem平台就解决了这个问题,使我们能够非常快地合成出这些分子,并且不断探索反应路径的优化,最后得到的反应路径也是创新择优的。

Q

相比于类似CRO的模式,您似乎更希望做一个材料领域的Biotech,这是为什么?

在相对成熟的AI制药领域,可以看到服务类、CRO类公司提供技术性服务,面向的药企数量较少,收入体量达到一定程度后,增长会有明显的瓶颈,而Biotech模式不仅是对自有研发平台实力强有力的证明,同时在长期发展上也更具有优势。在材料行业,我认为这样的逻辑会更加突出: 
▸ 第一,普遍来说,虽然一个新材料分子的研发周期也很长,但化工企业对于研发支出的投入其实并不像制药企业那样大,因此从这一部分的研发基础中赚取技术服务费用、充当“卖水人”的角色,在发展中大概率会碰到天花板
▸ 第二,材‍‍料行业的研发、实验验证周期相比于制药更短,商业化进展更快,下游应用的商业价值非常大,国外大的材料研发巨头往往在研发出一种材料后能够吃20-30年,所以只有自己研发管线才能将平台的价值发挥到最大化。
可以看到如今通过AI进行赋能的软件竞争已经比较激烈,而且国外起步更早。做一个国产软件一定也是有非常大意义的,但我们不想仅仅局限于技术服务的模式,而是希望带着我们的“水”去当一个“淘金”人,因此深云智合从成立的第一天开始,就非常明确地要基于DeepChem平台做一个材料研发企业,而不是一个技术服务公司。



技术篇


如何加速正向探索分子合成世界?

Alpha


Q

怎样理解DeepChem平台的底层逻辑?美国提出材料基因计划是很多年前的事了,深度学习和计算化学存在的时间也很长了,为什么过去没有人做深云智合类似的事情?

我原来在大学的时候,有个课题就是拿一个服务器花一周、两周或者一个月跑一个分子量很小的结果,而且一定得保证输入结果是正确的,要不然就白跑了。放到现在,上千分子量的数据十几秒就算出来了,这中间也得益于两部分提升
 ▸  计算手段的提升在量子化学中,随着原子数目的增加计算时间呈指数级增长,而一般有价值的反应体系原子数目大概在100个左右,也就是通常需要100次方的计算时间。所以早期大家只能模拟一些原子数目少的简单结构模型,否则是没有办法在合理时间内算出来的。后来有了各种加速计算的方法,才能算一些原子数目比较多的结构,比如催化剂,我们现在算的催化剂分子量大概都在1500以上。
▸  算力的提升随着半导体行业的不断快速更迭,我们现在能用上更好的服务器以及其他计算资源,也起到了一定的加速效果
DeepChem的底层原理是以提升反应速率和选择性为最终目标,可自主设计并计算多重反应路径,并通过改变相应官能团及组合来产生新的结构,经过迭代得到目标产物,进行高通量反应筛选,最后选择性能较好的结构,从而达到反应条件,并实现催化剂结构的优化。整个平台具备“AI+自动化+高通量”的特点。
针对分子结构自动调整、过渡态准确搜索等问题,我们提出了行业内领先的方法。比如其中的过渡态寻找一直普遍被行业认为是一个Black-Box问题,经常需要使用人员的大量试错,准确率较低,我们提出了创新的搜索方法,能够快速找到准确的过渡态,极大地提升计算的效率。

Q

同样都是做合成,DeepChem正向探索与逆合成反应设计有什么区别?

这也是非常多人会问我的一个问题。DeepChem的工作和逆合成设计是相反的,同时也是互补的

人工智能应用到合成上,最早出现的技术就是逆合成设计,大致来说,逆合成设计是根据已有的反应进行倒推,并且需要用到一个巨大的数据库来做计算,这种设计方式对于合成路径非常长、结构复杂药物大分子是比较有价值的。逆合成的原理是1990年E.J.Corey提出的,后来得了诺贝尔奖,到今天逆合成已经有30多年了相关的研究工作已经有很多,比如2018年Mark Waller与ICQMS在速率上的突破(注:相关成果已发表Nature)、2019年MIT的Coley W. Connor在自动化上的突破(注:相关成果已发表Science),现在国内做逆合成的公司已经有很多。
与逆合成不同,我们提出的机制是正向探讨分子结构和反应可行性之间的关系,基于具有元素普适性的电子波函数计算,不再严重地依赖于SciFinder或者Reaxys这样的基础反应数据库,我们能够找到之前从来没有实现过的催化反应,从而实现之前整个学术界和工业界都无法实现或制备的新路线或者新物质。我们针对很多目前难以实现的反应,有目的地实现有高附加值的新颖分子的低成本、高效制备,这样可以建立起有巨大知识壁垒的新管线新产品。

Q

在材料研发领域,AI的学习性应该如何体现?AI的数据又从何而来?

AI可以参与在设计催化剂的环节。催化剂有不同的配体类别,每种配体也有不同的配体结构,我们现在官能团数据库可以产生的配体种类已经达到了上亿量级,筛选空间非常大。如果采用暴力遍历是不太现实的,因为即使我们能够实现实验室的自动化,一天最快也只能做千百个,所以需要AI的帮助。
我们将分子结构用向量方式表达,通过学习分子结构和活化能之间的关系,优化分子结构(分子向量)使得反应的活化能尽可能降低 ,并更有可能成功反应出来,这属于一种强化学习,类似于 Alpho Go, 是一种通过不断试错(Reward Value)来优化自身策略的方法

同时,深云智合也与AI+Science领域中的多数公司不同,我们的AI模型中所有的数据都是通过DeepChem平台自身计算得到并积累的,对于已有数据、付费数据库没有依赖性,我们采用的是一种循序渐进、小模型推大模型的方式,先使用平台积累的数据训练一个小模型,再使用小模型推中模型,最后由中模型推大模型。这样的设计思路使我们在起步阶段不依赖于大量的样本就可以得到一个比较不错的模型,而后期越来越多的样本数据对于模型起到了锦上添花的作用,使我们的模型覆盖面更广,在预测、生成等方面更加高效和准确。

Q

什么是电子密度模拟?和常见的基于原子、分子的方法有什么不同?电子密度模拟是一种对原子之间作用力进行准确描述的一种方法,也是获得诺贝尔奖的一项技术,它的优势是对各种元素的适用范围广。如果直接对原子进行模拟,我们需要知道原子和原子之间的作用力,而世界上的原子有上百种,不同物质的原子是不一样的,需要不断地模拟以得到大量数据。而我们模拟的是电子之间的作用力,而世界上只有一种电子(除了位置、动量有区别),所有物质里的电子都是一样的,对于电子的模拟可重复性非常高,因此我们模型具备非常强烈的通用性
当然了,同等规模下电子模拟的计算要比原子模拟的计算量大很多,但是随着技术的进步,现在电子模拟在绝大部分的化学反应情况下已经达到了可以接受的速率。我们也认为随着科学技术的发展,电子模拟的速率还会有更多提升。


Q

我们看到DeepChem还有一个自动化的湿实验平台,它在整个材料研发流程中起到了什么作用?

可以把湿实验部分理解为一个自动快速做实验的机器人,AI算法得到的结果能够在湿实验中得到有效、快速地验证。同样的事情交给一个博士生来做,从合成、制备需要一两周,如果催化剂是现成的,也需要3、4天
而我们现在是不需要人去操作的,配合干实验计算流程可以完全自动跑起来,极大地提升了反应效率,减少了人工参与,从而实现真正的研发过程自动化,而不是仅仅是使用过程自动化


落地篇


打造AI+自动化+高通量驱动的新材料IP工厂

Alpha


Q

第一条管线为什么会选择有机硅,有什么样的机缘吗?国内有机硅市场有800多亿,也有很多上市企业,但整体来说研发技术相对落后,在高端应用需求的牵引下,开发性能更好的有机硅产品也一直是研究的热点。2011年后陶氏等很多巨头都把有机硅作为重点材料来开发,而我个人对有机硅材料和其市场也有深入研究。

Q

深云发现的新型环状有机硅分子有什么特性?能用来做什么?传统的有机硅都是线性结构,我们团队在去年通过DeepChem的加速得到了一个硅氧环形结构,同预期一样,环化导致的拓扑约束使其具有一些不同寻常的性质,如更小的旋转半径、流体力学体积、更低的粘度与更高的热稳定性等,等于是兼具了POSS(注:笼型聚倍半硅氧烷)和线性分子的优良特性,固化时不需要昂贵的金属催化剂,并且固化产物产生的杂质少、不发黄。
以环状有机硅分子为基础,目前我们开发了多种能适用于不同场景的有机硅材料,如阻燃剂和防火隔热涂料等等,通过物理化学协同作用,贴身保护,阻碍火势蔓延,阻断热量传递。

Q

深云目前的管线有延伸或衍生性么?比如有机硅管线未来是否会有进一步拓展?

我们会基于团队在化工行业细分领域的深厚积累不断拓展管线。
我们在做有机硅的过程中,通过平台技术得到了比市面便宜得多却能够实现相同效果的催化剂,目前已经开始在一些关键反应中得到了验证。
同时,我们的环形有机硅分子也需要一些环氧、氨基来提升有机硅的性能,那么下一步我们可能会去做衍生环氧,做环氧需要买烯烃、过氧化物做反应,那么再下一步我们可能会做过氧化物、烯烃,而烯烃再往前就是石油、煤,这些都是比有机硅还要大的千亿级市场。


Q

在材料工业化大规模生产这方面,您目前有遇到过什么问题吗?

我们在工业化大规模生产环节有非常丰富的经验,而且基于DeepChem的技术,我们在研发阶段就已经提前考虑了反应条件、生产环境、原料等扩大生产中非常重要的因素,因此我们得到的反应体系及分子结构具有原料易得、合成步骤简单、没有特殊的环境要求,向大规模量产走的过程中相对更容易。

Q

在创业过程中,您有什么预料之外的体验吗?

现在有一种说法,说AI+这样的计算方法,在Science应用中不仅能提升效率,同时还能打破固定思维的瓶颈。这是我深有感触的,同时也是DeepChem的优势之一。我们的平台基于底层的规则和准则,很多情况下能够发现一些意想不到的规律和细节。

Q

分享一下您对未来的规划吧?

首先,我们要对现有管线进行大规模生产以及工艺稳定性的研究,形成规模化生产和销售,并且进一步拓展更多方向的应用。同时,由于DeepChem平台强大的研发能力,我们会加强新管线的开发,加强我们的Know-how库,形成一个独特的、涉及到已有产业链上下游的新材料IP工厂



ALPHA部分交易

企业服务:得帆信息海蜂法务半城云DataPipeline幂律智能携客云骞云科技语祯物联创新奇智ClickPaaSVphoto联智科技企保科技数列科技商帆科技必示科技  

先进制造:杭州三相科技傲鲨智能普莱信智能全应科技谛声科技节卡机器人阿童木机器人芯翼信息科技

医疗健康:康迈迪森至善医疗汇禾医疗METiS剂泰医药志诺维思药研社云呼科技华志微创

新消费:有饮 NODYololand有乐岛禧宝制研Tabula Rasa哇力机器人YIN隐野兽生活 



点击了解更多





FIN  -


免责声明:此文件谨供给阁下作参考用途,并非作为或被视为在任何地区对任何证券的研究报告,并非作为或被视为出售或购买或认购证券的邀请或向任何特定人士作出邀请。此文件没有把任何接收方的投资目标,财务状况或特殊需求考虑进去。接收方不应仅依靠此文件,而应按照自己的判断作出投资决定。接收方作出任何投资行动前,应咨询专业意见。此文件所载的资料由华兴泛亚投资顾问(北京)有限公司(连同其关联公司,统称“华兴资本”)编写。此文件所载资料的来源皆被华兴资本认为可靠,此文件所载的见解、分析、预测、推断和期望都是以这些可靠数据为基础,只反映华兴资本于最初发此文件日期当日的判断,可随时更改而毋须另行通知。华兴资本有可能在未来向此文件提及的任何企业或个人提供服务,而毋须另行通知。因使用此文件内之材料而承受的直接或间接或相关之损失,华兴资本包括其控股公司、附属公司及关联个人均不会对此等损失负上任何责任。此文件受到版权和资料全面保护。除非获得华兴资本的授权,任何人不得以任何目的复制,派发或出版此文件。华兴资本保留一切权利。
继续滑动看下一个
华兴Alpha
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存